很多朋友想了解關於自然語言處理的一些資料信息,下麵是(揚升資訊www.balincan8.com)小編整理的與自然語言處理相關的內容分享給大家,一起來看看吧。很多朋友想了解關於機器翻譯的一些資料信息,下麵是(揚升資訊www.balincan8.com)小編整理的與機器翻譯相關的內容分享給大家,一起來看看吧。
金磊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
十年,能讓一個機器翻譯係統發生怎樣的變化?
2011年,TA還隻會“中-英”翻譯這一項技能。但TA卻用十年時間,在翻譯這條路上不斷打磨自己。
現如今,TA的“打開方式”的是這樣:
全球首個發布互聯網神經翻譯係統,10年內讓翻譯質量提升30個百分點(國際常用的評價指標BLEU),而通常提升1個百分點就是非常顯著的了。
全球首次突破200種語言的互譯,10年內讓翻譯語種數量增長100倍。
不再是隻會文本翻譯這一項技能,而是掌握了圖片、視頻、文檔,甚至是同傳這樣的跨模態翻譯。
也不再限於在輸入框中輸入文本來翻譯,而是翻譯APP、AI同傳會議版、同傳助手、小程序以及翻譯開放平台等多種產品。
而且現在的它還變得格外忙碌,全世界每天找TA翻譯的字符量超過千億,相當於2000部大英百科全書,是10年前的10萬倍。
甚至Gartner對它還做出了這樣的評價:
是神經網絡機器翻譯標杆機構,也是國內唯一入圍單位。
是全球AI翻譯服務中的重要力量。
……
TA,就是百度翻譯。
但如果現在你還認為它隻是個搞翻譯的,那可能就有點片麵了。
因為現在的百度翻譯,有點“變味”了。
10歲的百度翻譯,長什麽樣?如果說百度翻譯的起點,是十年前那個隻會中英翻譯的網站。
那麽現在的它,可謂是把翻譯這事玩出了一種新高度。
首先在翻譯語種這件事,也正如剛才提到的,百度翻譯全世界範圍內首個突破200種語言互譯的係統。
而且不隻是翻譯語種數量多的問題,更是在翻譯難度上有所體現。
例如它甚至在涉獵一些“冷門”的語言,以國粹文言文為例,輸入一段《學弈》的文字:
弈秋,通國之善弈者也。使弈秋誨二人弈,其一人專心致誌,惟弈秋之為聽;一人雖聽之,一心以為有鴻鵠將至,思援弓繳而射之。雖與之俱學,弗若之矣。為是其智弗若與?曰:非然也。
的一下,百度翻譯瞬間就能把晦澀難懂的古文,用大白話的形式展現出來:
然而機器能做到這一點,也相當不容易,因為除去大語種,大部分語言的互譯資源是稀缺的,無法供AI學習足夠多的知識。
但百度翻譯所滿足的可不止於對文本翻譯的“多”和“精”,它還花了十年時間在便捷這塊下足了功夫。
這不就在最近,百度翻譯App更新迭代到了10.0版本,“花式翻譯”也在這裏得到了很好的體現。
不再是把文字輸進去、翻出來這樣單一的套路,而是把語音、圖片、視頻、文檔等形式也融入了進來。
換言之,現在想要做翻譯,不再是輸入文本這種單一的形式了。
說一句話、拍一張照,甚至直接把完整的文檔導進來,就可以完成翻譯了。
不僅如此,甚至像同傳這樣高段位的翻譯,百度翻譯也是能夠輕鬆hold住。
百度翻譯更是在全球頂級機器翻譯比賽WMT (Workshop on Machine Translation)中,拿下過中英翻譯第一名的成績。
不難看出,百度翻譯花了十年時間,不隻是在做橫向的擴展,也是對各個產品在縱向上“自修功法”。Big Family目前已經枝繁葉茂。
那麽百度翻譯,是如何通過十年時間進階到如此的呢?
百度翻譯進化之路我們不妨先來簡單回顧一下機器翻譯的發展。
“機器翻譯”這件事,早在1946年第一台計算機ENIAC誕生之後的一年,便由信息論先驅、美國科學家Warren Weaver提出:
而至此之後,機器翻譯先是進入到了“基於規則方法”的時代。
這個方法本質上將專家的翻譯知識采用規則形式寫下來,然後采用軟件的方式利用翻譯規則來實現機器翻譯過程。
但這種方法的缺點也是顯而易見,那就是構建成本、維護成本過高,動輒還要將整個程序重寫。
而到了上世紀80年代末90年代初,IBM提出了另一種機器翻譯的方式——統計機器翻譯,這便開啟了機器翻譯時代的第二個大門。
與基於規則的機器翻譯不同,統計機器翻譯不再需要從人工書寫翻譯規則,而是轉換到了數據驅動的機器學習方法。
最大的優點在於機器可以按照人工定義的特征進行“自學”,而之前的基於規則方法,需要人類專家手把手的。
百度翻譯上線之初,主要用的就是基於統計機器翻譯的方法,同時研發了融合已有方法的多策略模型,以便應對互聯網上複雜多樣的翻譯請求。
2010年百度翻譯自建了研發團隊,僅時隔一年,便上線了網頁版。
但此時統計機器翻譯已經誕生了20多年時間,其發展的瓶頸也是越發明顯——在經曆了基於短語的方法、基於句法的方法等一係列技術迭代之後,統計機器翻譯逐漸遇到天花板,翻譯質量難以進一步提升,尤其在長距離調序、譯文流暢度方麵。
即便摸石頭過河,也要身先士卒到了2013年,一篇名為《Recurrent Continuous Translation Models》的研究橫空出世。
而伴隨著研究人員們所提出的新方法,機器翻譯也就步入到了神經機器翻譯 (NMT)時代。
雖然這種神經網絡的方法確實是一種理想的“替代品”,但非常現實的問題也擺在百度翻譯團隊的麵前。
那就是“無從參考”,建模的方式完全是新的,沒有經驗可循。
再則以當時的技術水平,通過神經網絡模型來做機器翻譯還是一件非常“傷資源”的事。
翻譯效果提升的代價,就是消耗大量的計算資源,往往翻譯一個句子就得花個十幾秒的時間。
時間拉到2015年,即便是在這種大背景的情況下,百度翻譯團隊依舊做了一個“敢為人先”的決定:
上線基於神經網絡的機器翻譯。
在技術方法上,百度翻譯團隊針對NMT所存在的缺點,將上一代統計機器翻譯的特融入了進來。
具體而言,就是將n-gram語言模型、短語表特征、長度特征等,融合到NMT模型中。
實驗結果表明,這種“新舊結合”的方法,顯著提升了NMT在中英互譯方麵翻譯的能。
而從立項到發布全球首個互聯網神經網絡機器翻譯係統,百度翻譯僅僅花了不到半年的時間。
這個節奏要比穀歌翻譯提早了整整16個月的時間。
然而百度翻譯卻並不滿足於此。
△ Bruno Pouliquen,世界知識產權組織機器翻譯負責人,MTSUMMIT-2017
還要做更多方向上的“領頭羊”為了能夠進一步翻譯出更多的語言,百度翻譯還提出了《Multi-Task Learning for Multiple Language Translation》。
在這項研究中,百度翻譯提出了共享編碼器的多任務學習神經網絡翻譯模型,建立了基於神經網絡的多語言翻譯統一框架。
△ 基於共享編碼器的翻譯模型圖
這也是百度翻譯現在能夠hold住203種語言互譯的關鍵所在。
到了2017年,百度翻譯又驚豔地亮出了AI同傳功能。
具體而言,是提出了語義單元驅動的機器同聲傳譯模型,解決了翻譯質量和同傳時延難以兼顧的難題。
與此同時,百度翻譯團隊還研發了高質量、低時延的機器同傳係統,翻譯準確率超過80%,平均時間延遲3秒。
也正是因為百度在機器翻譯這件事上技術處於領先地位,翻譯準確度又高。
所以許多國際的會議、活動,都陸陸續續選擇百度翻譯作為技術支持。百度翻譯的AI同傳,更是挺進了服貿會、進博會這樣的重要活動。
……
那麽隨之而來的一個問題便是:
百度為什麽要如此發力翻譯這件事?
翻譯,不僅僅是工具那麽簡單首先,需要明確且達成共識的一點是,機器翻譯是人工智能終極目標之一,也是AI技術最具挑戰的應用之一。
這也就是百度在機器翻譯領域不斷創新的原因所在。
但從另一個角度來看,百度翻譯要做的事情,從來就不是翻譯本身這麽簡單。
而從它十年的發展曆程來看,現在的百度翻譯已經“變味”了:
不僅僅是個工具,更是橋梁、窗口和世界文化的感受器。
這又該如何理解?
我們不妨從百度翻譯帶來了什麽,來理解它的“變味”。
TA是用戶身邊的翻譯助手例如在交警執法的過程中,就曾遇到過外國(俄羅斯)友人的這種情況。
由於他們不會中文,溝通就成了老大難的問題。
最終,交警通過百度翻譯的能力,成功地救助了外籍船員。
再如工作中,語言的障礙成為了信息獲取與溝通交流的阻礙。
而用戶通過使用百度翻譯的軟件,讓跨語言交流這件事變得更加絲滑。
但這樣的服務和體驗,應當是所有人都該擁有的體驗,哪怕是殘障人士也應如此。
為此,百度翻譯還幫助視力障礙的開發者開發盲人操作軟件,免費幫助大量盲人用戶獲取翻譯服務。
也正是這樣一件又一件的真實故事,讓百度翻譯不再是隻是翻譯工具這麽簡單,更是賦予了諸如橋梁、窗口和感受器等這樣的含義。
TA助力全球抗擊疫情但講真,比起體驗上的這層“變味”,百度翻譯還逐漸發揮著更具深層宏大的使命和價值。
例如在抗疫這件事上,百度翻譯也在發揮著它的熱量。
法語的3M口罩說明書、英語的防護服說明書、俄語的三層口罩商檢證書……這些抗疫物資等等,無不需要翻譯的工作。
但眾所周知,抗疫這件事不僅任務量重,更是在與時間賽跑。
百度翻譯便扛起了抗疫期間翻譯工作的重擔,僅僅在2天時間內便搭建出了高效易用的定製化翻譯工具,而且火速向誌願者團隊免費開放。
△ 多語言防疫視頻
TA服務國家需求,為跨語言交流鋪路而且百度翻譯做的事,還是符合國家需求的那種。
國家在第二屆“一帶一路”國際合作峰會論壇中便提出:
共建“一帶一路”,關鍵是互聯互通。我們應該構建全球互聯互通夥伴關係,實現共同發展繁榮。
而跨語言交流,就成為了實現這一目標的關鍵所在。
百度翻譯便在十年時間裏,在翻譯語種增長100倍的情況下,沿著“一帶一路”沿線國家,將跨語言翻譯逐步鋪展開來。
不難看出,這也是應了國家乃至全球發展的互聯互通大趨勢。
而放眼當下,百度翻譯還在“變味”著,要將翻譯這件事轉變為一種生產力。
但畢竟翻譯這件事可謂是任重而道遠,即便是拿下諸多“全球首次”的百度翻譯也還有很長的一段路要走。
至於在接下裏的時間裏,百度翻譯又將在技術和價值上帶來怎樣的提升,我們拭目以待。
— 完 —
量子位 QbitAI ⷠ頭條號簽約
關注我們,第一時間獲知前沿科技動態
本文到此結束,希望對大家有所幫助呢。
前三季度信用卡授信總額增長近四成
三萬億俱樂部省份GDP增速超全國平均
10月CPI降幅可能繼續收窄 11月或將轉正
國土部重申農村集體建設用地不得搞商品房建設
國資委將嚴查政府投資項目突出問題
食品漲價助CPI轉正防通脹來臨